Zvýšení MT výkonu se dosahuje změnou organizace sběrnice nejen mezi jádry a jejich společnou vyrovnávací pamětí (cache), ale i mezi jádry navzájem.
Z pohledu rychlosti by bylo ideální mít přímé spojení přes samostatné sběrnice mezi jednotlivými jádry i samostatné spojení mezi každým jádrem a vyrovnávací pamětí. Pak by byla délka drátů mezi koncovými body minimální a tedy i zpoždění přístupu způsobené omezenou rychlostí signálu po drátech. A taky by se nemuselo řešit řízení přístupu ke sběrnicím při kolizi požadavků jednotlivých jader. Jenže tehle řešení by vyžadovalo obrovské množství vodičů a způsobovalo problémy s jejich umístěním a výrobou tak, aby se nekřížily.
Proto se běžně používá kruhová sběrnice, na níž jsou všechna jádra i zdroje, které jádra potřebují. A tedy i společná vyrovnávací paměť (cache). Ta sběrnice je obousměrná a požadavky i výsledná data se posílají tím směrem, kudy je nejkratší cesta mezi jejich zdrojem a cílem. Pro menší počet jader je to vyhovující. Ale při zvyšováním počtu jader se sběrnice a tedy i zpoždění prodlužují. A taky dochází častěji ke kolizi jednotlivých požadavků a nutnosti počkat na uvolnění sběrnice.
Ta žebříková sběrnice (viz obrázek na odkazu dole) je kompromisem mezi plným propojením a kruhovou sběrnicí. Snižuje vzdálenost propojení jednotlivých bodů i množství kolizi, ale bude potřeba složitější logika řízení komunikace. Ta se bude snažit posílat požadavky i data pokud možno co nejkratším možným směrem a tak, aby nedocházelo někde po cestě ke kolizím požadavků..
Možná ještě poznámku k testování vlivu velikosti vyrovnávací paměti (cache). Zkusit 3 různé velikosti vypadá jednoduše, ale je dobré si uvědomit, co to znamená z pohledu nákladů. Získání jedné verze procesoru vyžaduje kompletní návrh včetně výroby všech masek a tak každá testovací verze stojí v podstatě stejně, jako návrh celého procesoru. To jsou náklady ve stovkách milionů dolarů a něco takového by u AMD bylo ještě nedávno nepředstavitelné.
https://wccftech.com/amd-next-gen-zen-5-cpus-feature-reworked-cache-design-larger-l2-cache-per-core-rumor/
Odpovědět1 0
Docela by mě zajímalo, jestli by šlo jádra a cache propojit přes interposer pomocí TSV. Interposer by mohl integrovat i V-Cache, zajišťovat i propojení chipletů a I/O čipu a být umístěn dole, takže by nebránil chlazení.
Odpovědět0 0
Myslím že ne, je to vidět na vrstvené Cache, která na jeden čiplet vyžaduje, pokud si dobře pamatuji 36 tisíc spojů. Navíc Cache, je fakt citlivá na latence a prodloužení spojů už by mohl být problém. Co je reálnější, že by L3 vůbec nebyla na čipletech a zůstala jen na druhé vrstvě, o tom se uvažuje jako o jedné variante pro další generaci zmenšených jader, takže ten poměr už by nemusel být 96 ku 128 klasika a C verze , ale třeba dvojnásobek. Ale zda by se to vyplatilo i spotřebitelské CPU mimo servery, fakt nevím.
Odpovědět0 0